发布日期: 2025年11月13日
gpt应该是第一个把fast apply工程能力内置到工具的吧
今天我们在 API 平台发布了 GPT‑5.1,这是 GPT‑5 系列中平衡智能和速度的下一代模型,适用于广泛的代理和编程任务。GPT‑5.1 根据任务复杂性动态调整思考时间,使模型在更简单的日常任务中显著更快且更节省 token。该模型还具备"无推理"模式,可在不需要深度思考的任务中更快响应,同时保持 GPT‑5.1 的前沿智能。
为了使 GPT‑5.1 更加高效,我们发布了扩展的提示缓存,最长可保留 24 小时缓存,以更低成本为后续问题提供更快响应。我们的优先处理客户也将在 GPT‑5.1 上体验到比 GPT‑5 明显更快的性能。
在编程方面,我们与 Cursor、Cognition、Augment Code、Factory 和 Warp 等初创公司密切合作,以改善 GPT‑5.1 的编程特性、可控性和代码质量。总体而言,GPT‑5.1 在编程方面感觉更直观易用,并且在完成任务时提供更多面向用户的更新。
最后,我们为 GPT‑5.1 引入了两个新工具:一个用于更可靠编辑代码的 apply_patch 工具,以及一个让模型运行 shell 命令的 shell 工具。
GPT‑5.1 是 GPT‑5 系列的下一个进步,我们计划继续投资更智能、更强大的模型,以帮助开发者构建可靠的代理工作流程。
跨任务的高效推理
自适应推理
为了使 GPT‑5.1 更快,我们彻底改革了训练其思考的方式。在直接明了的任务中,GPT‑5.1 使用更少的 token 进行思考,实现更快捷的产品体验和更低的 token 费用。在需要额外思考的困难任务中,GPT‑5.1 保持坚持,探索选项并检查其工作,以最大化可靠性。
Balyasny Asset Management 表示,GPT‑5.1"在我们完整的动态评估套件中超越了 GPT‑4.1 和 GPT‑5,同时运行速度比 GPT‑5 快 2-3 倍"。他们还说,在他们工具繁重的推理任务中,GPT‑5.1"始终使用大约领先竞争对手一半的 token,同时达到相似或更好的质量"。同样,AI 保险 BPO Pace 也测试了该模型并表示他们的代理在 GPT‑5.1 上运行"速度快 50%,同时在我们的评估中超越了 GPT‑5 和其他领先模型的准确性"。
与 GPT‑5 相比,GPT‑5.1 更动态地调整其思考时间。在 ChatGPT 任务的代表性分布中,GPT‑5.1 在更容易的任务上快得多,即使在高的推理努力下也是如此。
例如,当被要求"显示列出全局安装包的 npm 命令"时,GPT‑5.1 在 2 秒内回答,而不是 10 秒。
GPT-5 (Medium) 耗时 ~250 tokens (~10 秒)
css
show an npm command to list globally installed packages
npm list -g --depth=0
GPT-5.1 (Medium) 耗时 ~50 tokens (~2 秒)
sql
show an npm command to list globally installed packages
You can list globally installed npm packages with:
- Just package names: npm ls -g --depth=0
- Including their install paths: npm ls -g
The first one is usually what you want.
新的"无推理"模式
开发者现在可以通过将 reasoning_effort 设置为 'none' 来使用不带推理的 GPT‑5.1。这使得模型在延迟敏感的用例中表现为非推理模型,具有 GPT‑5.1 的高智能和高性能工具调用的额外优势。相对于具有'minimal'推理的 GPT‑5,具有无推理的 GPT‑5.1 在并行工具调用(本身提高了端到端任务完成速度)、编程任务、遵循指令和使用搜索工具方面表现更好------并在我们的 API 平台支持网络搜索。Sierra 分享说,GPT‑5.1 在"无推理"模式下的真实评估显示"与 GPT‑5 最小推理相比,低延迟工具调用性能提高了 20%"。
随着在 reasoning_effort 中引入 'none' 作为值,开发者现在对速度、成本和智能之间的平衡有了更大的灵活性和控制权。GPT‑5.1 默认为 'none',这对于延迟敏感的工作负载是理想的。我们建议开发者为更复杂的任务选择 'low' 或 'medium',在智能和可靠性比速度更重要时选择 'high'。
扩展的提示缓存
扩展缓存通过允许提示在缓存中保持活跃长达 24 小时(而不是目前支持的几分钟)来提高推理效率。通过更长的保留窗口,更多的后续请求可以利用缓存上下文------从而降低延迟、减少成本,并为多轮对话、编程会话或知识检索工作流程等长时间运行的交互提供更流畅的性能。
提示缓存定价保持不变,缓存的输入 token 比未缓存的 token 便宜 90%,并且缓存写入或存储不收取额外费用。要在 GPT‑5.1 中使用扩展缓存,请在 Responses 或 Chat Completions API 上添加参数"prompt_cache_retention='24h'"。有关更多详细信息,请参阅提示缓存文档。
python
"prompt_cache_retention='24h'"
编程
GPT‑5.1 在 GPT‑5 的编程能力基础上,具有更可控的编程特性、更少的过度思考、改进的代码质量、在工具调用序列期间更好的面向用户的更新消息(前言),以及更实用的前端设计------特别是在低推理努力下。
在简单的编程任务(如快速代码编辑)中,GPT‑5.1 的更快速度使来回迭代更容易。GPT‑5.1 在简单任务上的更快速度不会降低在困难任务上的性能。在 SWE-bench Verified 上,GPT‑5.1 的工作时间甚至比 GPT‑5 更长,达到 76.3%。
在 SWE-bench Verified 中,模型被给予一个代码仓库和问题描述,必须生成一个补丁来解决问题。标签表示推理努力。准确性在所有 500 个问题上平均。所有模型都使用了带有基于 JSON 的 apply_patch 工具的集成。
我们从一些编程公司那里获得了关于 GPT‑5.1 的早期反馈。以下是他们的印象:
- Augment Code 称 GPT‑5.1"更加慎重,浪费的行动更少,推理更高效,任务专注度更好",他们看到"更准确的变更、更平滑的 pull requests 以及跨多文件项目的更快迭代"。
- Cline 分享说,在他们的评估中,"GPT‑5.1 在我们的差异编辑基准上达到了 SOTA,提高了 7%,展示了在复杂编程任务中卓越的可靠性"。
- CodeRabbit 称 GPT‑5.1 是他们"PR 审阅的首选顶级模型"。
- Cognition 表示 GPT‑5.1"明显更善于理解你的要求并与你合作完成任务"。
- Factory 表示"GPT‑5.1 提供明显更快的响应,并根据任务调整其推理深度,减少过度思考并改善整体开发者体验"。
- Warp 正在将 GPT‑5.1 设为新用户的默认选择,表示它"建立在 GPT‑5 系列引入的令人印象深刻的智能增益基础上,同时是一个响应更快的模型"。
"GPT 5.1 不仅仅是另一个 LLM------它是真正具有代理性的,我测试过的最自然的自主模型。它像你一样写作,像你一样编程,毫不费力地遵循复杂指令,并在前端任务中表现出色,完美融入你现有的代码库。你可以在 Responses API 中真正释放它的全部潜力,我们很高兴在我们的 IDE 中提供它。"
GPT‑5.1 中的新工具
我们为 GPT‑5.1 引入了两个新工具,以帮助开发者在 Responses API 中充分利用模型:一个自由的 apply_patch 工具,使代码编辑更可靠而无需 JSON 转义,以及一个 shell 工具,让模型编写命令在本地机器上运行。
Apply_patch 工具
自由格式的 apply_patch 工具让 GPT‑5.1 使用结构化差异在代码库中创建、更新和删除文件。模型不是仅仅建议编辑,而是发出补丁操作,由应用程序应用并报告回,实现迭代、多步骤的代码编辑工作流程。
要在 Responses API 中使用 apply_patch 工具,请在 tools 数组中包含它,使用"tools": [{"type": "apply_patch"}],并在输入中包含文件内容或给模型与文件系统交互的工具。模型将为创建、更新或删除文件生成 apply_patch_call 项目,其中包含你在文件系统上应用的差异。有关如何与 apply_patch 工具集成的更多信息,请查看我们的开发者文档。
json
"tools": [{"type": "apply_patch"}]
Shell 工具
shell 工具允许模型通过受控的命令行界面与本地计算机交互。模型提出 shell 命令;开发者的集成执行它们并返回输出。这创建了一个简单的计划-执行循环,让模型可以检查系统、运行实用程序并收集数据,直到它们可以完成任务。
要在 Responses API 中使用 shell 工具,开发者可以在 tools 数组中包含它,使用"tools": [{"type": "shell"}]。API 将生成包含要执行的 shell 命令的"shell_call"项目。开发者在本地环境中执行命令,并在下一个 API 请求的"shell_call_output"项目中传回执行结果。在我们的开发者文档中了解更多信息。
json
"tools": [{"type": "shell"}]
定价和可用性
GPT‑5.1 和 gpt-5.1-chat-latest 对 API 中所有付费层级的开发者可用。定价和速率限制与 GPT‑5 相同。我们还在 API 中发布了 gpt-5.1-codex 和 gpt-5.1-codex-mini。虽然 GPT‑5.1 在大多数编程任务上表现出色,但 gpt-5.1-codex 模型针对在 Codex 或类似 Codex 集成中的长时间运行、代理编程任务进行了优化。
开发者可以开始使用我们的 GPT‑5.1 开发者文档和模型提示指南进行构建。我们目前不打算在 API 中弃用 GPT‑5,如果我们决定这样做,将提前通知开发者。
下一步
我们致力于迭代部署最强大、最可靠的模型用于真实的代理和编程工作------能够高效思考、快速迭代并处理复杂任务,同时让开发者保持流畅状态的模型。凭借自适应推理、更强的编程性能、更清晰的面向用户更新,以及像 apply_patch 和 shell 这样的新工具,GPT‑5.1 旨在帮助您以更少的摩擦进行构建。我们仍在继续大量投资于此:您可以期待在接下来的几周和几个月内出现更强大的代理和编程模型。
附录:模型评估
| 评估 | GPT‑5.1 (high) | GPT‑5 (high) |
|---|---|---|
| SWE-bench Verified (全部 500 个问题) | 76.3% | 72.8% |
| GPQA Diamond (无工具) | 88.1% | 85.7% |
| AIME 2025 (无工具) | 94.0% | 94.6% |
| FrontierMath (使用 Python 工具) | 26.7% | 26.3% |
| MMMU | 85.4% | 84.2% |
| Tau2-bench Airline | 67.0% | 62.6% |
| Tau2-bench Telecom* | 95.6% | 96.7% |
| Tau2-bench Retail | 77.9% | 81.1% |
| BrowseComp Long Context 128k | 90.0% | 90.0% |
- 对于 Tau2-bench Telecom,我们给 GPT‑5.1 一个简短的、通用有用的提示来提高其性能。