GPT-5.5 发布:一种面向真实工作的全新智能形态

点击下方"JavaEdge",选择"设为星标"

第一时间关注技术干货!

本文已收录在Github,关注我,紧跟本系列专栏文章,咱们下篇再续!

  • 🚀 魔都架构师 | 全网30W技术追随者

  • 🔧 大厂分布式系统/数据中台实战专家

  • 🏆 主导交易系统百万级流量调优 & 车联网平台架构

  • 🧠 AIGC应用开发先行者 | 区块链落地实践者

  • 🌍 以技术驱动创新,我们的征途是改变世界!

  • 👉 实战干货:编程严选网

一种面向真实工作的全新智能形态

0 前言

更新于 2026 年 4 月 24 日:GPT-5.5 和 GPT-5.5 Pro 现已在 API 中提供。 系统卡 也已更新,描述了新增的安全防护措施。

我们发布了 GPT-5.5,这是目前最智能、也最容易使用的模型,是迈向全新计算机工作方式的重要一步。

GPT-5.5 能更快理解你的目标,并能主动承担更多工作。它在代码编写与调试、在线调研、数据分析、文档与表格生成、软件操作,以及在不同工具之间切换直至完成任务等方面表现出色。你不再需要精细地管理每一个步骤,只需把一个复杂、混乱、包含多个部分的任务交给 GPT-5.5,它就能自行规划、调用工具、检查结果、处理不确定性并持续推进。

在具备代理能力的编程、计算机操作、知识型工作以及早期科学研究等领域,这种提升尤为明显------这些领域依赖跨上下文推理和持续执行。GPT-5.5 在提升智能水平的同时,没有牺牲速度:通常更强大的模型会更慢,但 GPT-5.5 在真实服务中实现了与 GPT-5.4 相同的 token 延迟,却拥有更高的智能水平。同时,它在完成相同 Codex 任务时所需的 token 明显更少,因此不仅更强大,也更高效。

我们为 GPT-5.5 配备了迄今为止最严格的一套安全防护措施,旨在减少滥用,同时保留对有益工作的支持。我们基于完整的安全与准备框架对模型进行了评估,与内部和外部红队合作,增加了针对高级网络安全和生物能力的专项测试,并在发布前从近 200 个可信早期用户那里收集了真实使用反馈。

目前,GPT-5.5 正在向 ChatGPT 和 Codex 的 Plus、Pro、Business 和 Enterprise 用户推出,GPT-5.5 Pro 正在向 ChatGPT 的 Pro、Business 和 Enterprise 用户推出。API 的部署需要不同的安全措施,我们正在与合作伙伴密切合作,以满足大规模服务的安全与合规要求。我们将很快在 API 中提供 GPT-5.5 和 GPT-5.5 Pro。

GPT-5.5 GPT-5.4 GPT-5.5 Pro GPT-5.4 Pro Claude Opus 4.7 Gemini 3.1 Pro
Terminal-Bench 2.0 82.7% 75.1% - - 69.4% 68.5%
Expert-SWE(内部) 73.1% 68.5% - - - -
GDPval(胜或平) 84.9% 83.0% 82.3% 82.0% 80.3% 67.3%
OSWorld-Verified 78.7% 75.0% - - 78.0% -
Toolathlon 55.6% 54.6% - - - 48.8%
BrowseComp 84.4% 82.7% 90.1% 89.3% 79.3% 85.9%
FrontierMath Tier 1--3 51.7% 47.6% 52.4% 50.0% 43.8% 36.9%
FrontierMath Tier 4 35.4% 27.1% 39.6% 38.0% 22.9% 16.7%
CyberGym 81.8% 79.0% - - 73.1% -

1 模型能力

OpenAI 正在构建面向全球的代理式 AI 基础设施,让个人和企业都能借助 AI 完成工作。过去一年,我们已经看到 AI 大幅提升软件工程效率。随着 GPT-5.5 在 Codex 和 ChatGPT 中的应用,这种变革也开始扩展到科学研究以及更广泛的计算机工作领域。

在这些场景中,GPT-5.5 不只是更聪明,还更高效:它通常用更少的 token 和更少的重试,就能产出更高质量的结果。在 Artificial Analysis 的 Coding Index 上,GPT-5.5 以仅为竞品一半的成本,实现了最先进的编程智能水平。

Artificial Analysis Intelligence Index
img

Artificial Analysis Intelligence Index 是由第三方基于 10 项评测加权得出的综合指标,包括 AA-LCR、AA-Omniscience、CritPt、GDPval-AA、GPQA Diamond、Humanity's Last Exam、IFBench、SciCode、Terminal-Bench Hard、τ²-Bench Telecom。

1.1 代理式编程

GPT-5.5 是目前最强的代理式编程模型。在 Terminal-Bench 2.0 (测试需要规划、迭代和工具协作的复杂命令行流程)中,它达到了 82.7% 的最先进准确率。在 SWE-Bench Pro (评估真实 GitHub 问题解决能力)中,它达到 58.6%,能一次性端到端解决更多任务。在 Expert-SWE(内部长周期编程评测,中位人类完成时间为 20 小时)中,GPT-5.5 同样优于 GPT-5.4。

在这三项评测中,GPT-5.5 在提升成绩的同时还使用了更少的 token。

Terminal-Bench 2.0
img

Expert-SWE(内部)
img

在 Codex 中,这种编程能力表现尤为明显,它可以承担从实现、重构到调试、测试和验证的工程任务。早期测试显示,GPT-5.5 在真实工程所需的能力上更强,例如在大型系统中保持上下文、分析模糊错误、通过工具验证假设,以及在整个代码库中传播修改。


除了基准测试,早期测试者表示 GPT-5.5 在理解系统结构方面更强:能判断问题原因、修复位置,以及对代码库其他部分的影响。

"这是我用过的第一个在概念上真正清晰的编程模型。"

Every 的创始人兼 CEO Dan Shipper 这样评价 GPT-5.5。

他在发布一个应用后,花了几天时间调试问题,最终请一位资深工程师重写了部分系统。为了测试 GPT-5.5,他将问题回放:模型是否能从错误状态中给出类似的重写方案?GPT-5.4 做不到,但 GPT-5.5 做到了。

"感觉就像在和更高智能合作,甚至会产生一种'尊重感'。"

MagicPath 的 CEO Pietro Schirano 也观察到了类似的提升:GPT-5.5 能在约 20 分钟内一次性完成复杂分支合并。

参与测试的资深工程师表示,GPT-5.5 在推理能力和自主性上明显优于 GPT-5.4 和 Claude Opus 4.7,能够提前发现问题,并预测测试与评审需求。在一个案例中,一位工程师让它重构评论系统,回来时发现模型已经完成了接近完整的 12 个差异提交。许多人表示,他们几乎不需要修改实现,对 GPT-5.5 的方案也更有信心。

一位 NVIDIA 的工程师甚至表示:"失去 GPT-5.5 的访问权限,就像失去一条肢体。"

"GPT-5.5 比 GPT-5.4 更聪明、更有持续性,编程能力更强,工具使用更可靠。它能长时间保持任务执行,不会过早停止,这对用户委托的复杂长任务尤为重要。"

------ Cursor 联合创始人兼 CEO Michael Truell
"
"开发者需要的是持续推进,而不是无尽迭代。GPT-5.5 能在更少交互中突破复杂任务(如认证流程、实时同步)的瓶颈,尤其在困难任务上表现突出。"

------ Lovable CTO 兼联合创始人 Fabian Hedin
"
"GPT-5.5 为 Devin 设定了新的标准。它运行更久、更自主,能发现其他模型无法检测的 bug,并能端到端解决生产问题。"

------ Cognition 联合创始人兼 CEO Scott Wu
"
"GPT-5.5 在处理模糊性方面是一次巨大飞跃,非常适合长周期任务。"

------ Windsurf CEO Jeff Wang
"
"在复杂多步骤编程任务中,能力显著提升。更少步骤(减少 50--60%)就能解决问题。"

------ GitHub 产品副总裁 Joe Binder
"
"效率是最大亮点:简单任务快 3 倍,同时能根据任务动态调整推理深度。"

------ JetBrains AI 生态负责人 Denis Shiryaev
"
"生成的代码 bug 和漏洞最少。"

------ Sonar AI 研究负责人 Joe Tyler
"

1.2 知识型工作

GPT-5.5 在编程中的优势同样适用于日常办公。它更擅长理解意图,因此能更自然地完成完整工作流程:获取信息、提取重点、调用工具、验证结果并产出最终成果。

在 Codex 中,它在生成文档、表格和演示方面优于 GPT-5.4。测试者表示,它在运营研究、建模以及将混乱输入转化为计划方面表现更好。结合计算机操作能力,GPT-5.5 更接近"与你一起使用电脑":识别屏幕内容、点击、输入、操作界面并在工具间切换。

OpenAI 内部已有广泛应用:超过 85% 员工每周使用 Codex。在通信团队中,它用于分析数据并构建自动化流程;在财务团队中,它帮助处理数万份税务文件,将时间缩短两周;在市场团队中,它自动生成报告,每周节省 5--10 小时。


在 ChatGPT 中,GPT-5.5 Thinking 提供更快、更高质量的复杂问题解决能力。

GPT-5.5 Pro 则进一步提升任务难度与质量,尤其在商业、法律、教育和数据科学领域表现突出。

在多项基准测试中,GPT-5.5 达到最先进水平,例如 GDPval(84.9%)、OSWorld(78.7%)、Tau2(98.0%)。

(以下图表保持原样)
img img img NVIDIA、Cisco、Abridge、Databricks、Harvey、Box、Lowe's 等公司的反馈均显示其在真实工作中的显著提升(内容同上,略去重复翻译结构,保持原意)。

"

1.3 科学研究

GPT-5.5 在科学研究方面也有明显提升,能够支持从问题到实验再到结论的完整流程。

在 GeneBench 和 BixBench 等评测中表现领先,甚至参与发现新的数学证明(Ramsey 数相关),并通过 Lean 验证。

研究人员将其作为"研究伙伴"使用,用于论文评审、分析设计和多轮推理。

多个案例表明,它能将专家想法转化为实际工具和研究成果。

"如果继续这样发展,药物发现的基础将发生改变。"

------ Axiom Bio CEO Brandon White
"

2 新一代推理效率

为了在保持 GPT-5.4 延迟的同时提供更高性能,我们从整体系统层面重新设计了推理架构,并与 NVIDIA 硬件深度协同。

Codex 和 GPT-5.5 本身也参与优化过程,例如分析流量并改进负载均衡,使生成速度提升 20% 以上。

3 推进网络安全

GPT-5.5 在网络安全能力上进一步提升,同时加强了防护机制,以减少滥用。

我们提供更严格的安全控制,同时通过"可信访问"机制支持合法防御用途。

与政府和机构合作,保护关键基础设施。

该模型在安全框架中被评为"高风险能力",但仍低于"关键级别"。

4 可用性与定价

GPT-5.5 已在 ChatGPT 和 Codex 推出,不同订阅层级可用。

API 定价:

  • 输入:$5 / 百万 token

  • 输出:$30 / 百万 token

GPT-5.5 Pro:

  • 输入:$30 / 百万 token

  • 输出:$180 / 百万 token

虽然价格更高,但效率更好,总体成本更优。

编程严选网http://www.javaedge.cn/

专注分享AI时代下软件开发全场景最新最佳实践~

相关推荐
熊文豪2 小时前
拆解 awesome-gpt-image-2-prompts:一份 GPT-Image-2 的社区实战提示词样本
gpt·dreamweaver·gpt-image-2
Resistance丶未来3 小时前
DeepSeek-V4 新手快速上手指南
数据结构·python·gpt·算法·机器学习·claude·claude 4.6
EQ-雪梨蛋花汤19 小时前
【OpenAI】GPT-5.5发布!从“会说话”走向“会干活”(运算速度更快、逻辑更准,消耗Token更少)
人工智能·gpt
guslegend21 小时前
AI生图第3节:gpt-image-2的提示词反解析与Json结构化生图
人工智能·gpt·json
ai大模型中转api测评1 天前
开发者接入实战:GPT-5.5 API 深度调优、推理策略与工程化降本指南
大数据·人工智能·gpt
AI木马人1 天前
2.【多模型接入架构】如何同时接入GPT、Gemini、Claude并统一管理?(完整实现方案)
人工智能·gpt·深度学习·神经网络·自然语言处理
薛定猫AI1 天前
【深度解析】GPT 5.5 类 Agent 模型的工程能力:从多步骤规划、Token 效率到 AI 编码工作流落地
人工智能·gpt
一铭111991 天前
gpt-claude-gemini 超级大模型安装使用教程
java·python·gpt·ai编程·claude·gemini
ofoxcoding1 天前
2026 年大模型 API 实测天梯榜:DeepSeek v4、GPT-5、Claude 4.6、Gemini 3 谁值得接?
gpt·ai