OpenClaw绝配！GPT-5.4问世，AI能力开始大一统，就是太贵

周五凌晨，OpenAI 正式发布 GPT-5.4，引入了一种新模式：原生的计算机使用。

有意思的是，这次 GPT-5.4 的上新，恰好发生在知名开发者 Peter Steinberger 加入 OpenAI 不久之后。这很难不让人猜测，Peter 的加入会对 OpenAI 在计算机使用和开发者工具方向上的布局产生多少影响。Peter 本人也进行了宣传：

还有网友表示：GPT-5.4 的发布，到处都有 Peter Steinberger 的「爪印」！GPT-5.4 看起来就像是 OpenClaw 的架构文档被直接做成了一个前沿模型，而这一切发生在 Peter 加入 OpenAI 仅仅 3 周之后。该网友还进行了一些对比，比如以前所有工具定义都必须塞进 prompt 里，浪费成千上万的 token，现在是 GPT-5.4 可以按需查找工具定义，token 使用量减少 47%。而 OpenClaw 从第一天起就通过描述匹配动态加载技能（skills）。

又比如，过去，模型本身并没有原生能力去直接操作软件或执行完整的开发流程。而在 GPT-5.4 中，智能体已经可以在不同应用之间自动运行「构建 → 运行 → 验证 → 修复」的循环，实现较为完整的任务闭环。值得注意的是，这种工作模式与 OpenClaw 的设计非常相似。

而这些变化，也正好引出了 GPT-5.4 最核心的一点：原生计算机使用能力（Computer Use）。

新一代大模型在知识工作和网络搜索方面表现更出色，具备原生的计算机使用能力。GPT-5.4 现在可以直接操作软件、使用工具、浏览网页、执行工作流程，并规划跨应用程序的复杂任务，最多可处理 100 万个上下文 token。

推理 + 编码 + 智能体 + 计算机控制，全都融合在同一个前沿模型里。

目前，GPT-5.4 已在 OpenAI 的 API 和 Codex 中提供，并正在 ChatGPT 中逐步推出（面向 ChatGPT Plus、Team 和 Pro 用户开放），取代了 GPT-5.2 Thinking 模型。OpenAI 也在 ChatGPT 和 API 中推出了 GPT-5.4 Pro（面向 Pro 和企业版用户开放），其专为那些希望在复杂任务中实现极致性能的用户设计。

在 API 中，GPT-5.4 的 token 价格高于 GPT-5.2，批量处理和灵活处理的价格为标准 API 费率的一半，而优先处理的价格为标准 API 费率的两倍。

在评测基准上，GPT 5.4 Pro 以 38% 的成绩轻松击败了最难的数学基准测试 FrontierMath Tier 4------ 该基准包含 50 道研究级别的数学题，数学家可能需要几周时间才能解决。仅仅在一年前，最佳成绩为 2% (o3) ，目前最佳的开源模型分数为 4.2% (Kimi K2.5)。

作为通用模型，GPT-5.4 具备原生的计算机使用能力，这对于开发者和智能体而言是一次重大飞跃。

OpenAI 表示，新模型能在各种计算机工作负载下保持高性能。它非常擅长编写代码来操作计算机（例如通过 Playwright 等库），也能根据屏幕截图发出鼠标和键盘命令。它的行为可以通过开发者消息进行控制，这意味着开发者可以根据特定用例调整其行为。开发者甚至可以通过指定自定义确认策略来配置模型的安全行为，以适应不同的风险承受能力。

该模型的性能和灵活性体现在各项基准测试中，在 OSWorld-Verified 测试中，该测试通过屏幕截图和键盘 / 鼠标操作来衡量模型在桌面环境中导航的能力，GPT-5.4 取得了 75.0% 的领先成功率，远超 GPT-5.2 的 47.3%，也超越了人类的 72.4%。

在 GDPval 测试中，GPT-5.4 在 83.0% 的比较中达到或超过了行业专业人士的水平，而 GPT-5.2 的这一比例为 70.9%。

GPT-5.4 计算机性能的提升得益于其增强的通用视觉感知能力。在 MMMU-Pro 测试中，GPT-5.4 在不使用任何工具的情况下取得了 81.2% 的成功率，优于 GPT-5.2 的 79.5%。

视觉感知能力的提升也体现在其文档解析能力的增强上。在 OmniDocBench 测试中，GPT-5.4 在不使用任何推理工具的情况下，平均误差为 0.109，优于 GPT-5.2 的 0.140。

代码生成方面，GPT-5.4 结合了 GPT-5.3-Codex 的编码优势，并具备领先的知识处理和计算机使用能力，这在长时间运行的任务中尤为重要，因为模型可以利用工具、迭代并推进工作，从而减少人工干预。在 SWE-Bench Pro 测试中，GPT-5.4 的性能与 GPT-5.3-Codex 持平或更优，同时在推理过程中延迟更低。

启用 Codex 中的 /fast 模式后，GPT-5.4 的 token 处理速度最高可提升 1.5 倍。它采用的是相同的模型和智能，只是速度更快。这意味着用户可以更流畅地完成编码任务、迭代和调试，保持高效的工作流程。

使用 GPT-5.4 生成的 RPG 游戏，经过多回合迭代开发。

根据一个简单的提示，制作的金门大桥飞行体验。

在 API 中，GPT-5.4 引入了工具搜索功能。这使得模型能够在拥有众多工具的情况下高效运行。

以前，当给模型分配工具时，所有工具的定义都会预先包含在请求请求中。对于拥有大量工具的系统，这可能会在每个请求中增加数千甚至数万 token，从而增加成本、降低响应速度，并使上下文信息过于拥挤，而这些信息模型可能永远不会用到。

通过工具搜索，GPT-5.4 会收到一个轻量级的可用工具列表以及相应的工具搜索功能。当模型需要使用某个工具时，它可以查找该工具的定义，并将其添加到当前的对话中。

这种方法显著减少了工具密集型工作流程所需的 token 数量。它还使智能体能够可靠地与规模更大的工具生态系统协同工作。对于可能包含数万个工具定义令牌的 MCP 服务器而言，效率提升可能非常显著。

OpenAI 评估了 Scale 的 MCP Atlas 中的 250 项任务，工具搜索配置在保持相同准确率的同时，将总 token 使用量减少了 47%。

GPT-5.4 改进了工具调用，使其在推理过程中（尤其是在 API 调用中）能够更准确、更高效地决定何时以及如何使用工具。与 GPT-5.2 相比，它在 Toolathlon 测试中以更少的回合数实现了更高的准确率。

GPT-5.4 在自主网络搜索方面也表现更佳。在 BrowseComp 测试中，GPT-5.4 比 GPT-5.2 提升了 17% 而 GPT-5.4 Pro 则达到了 89.3%，创下了新的最高水平。

这意味着 GPT-5.4 Thinking 更擅长回答需要整合网络上多个信息源的问题。它可以更持久地进行多轮搜索，以识别最相关的信息源，尤其适用于「大海捞针」式的问题，并将它们综合成清晰、论证充分的答案。

在 ChatGPT 中，GPT-5.4 Thinking 现在可以预先提供其思考计划，你可以在它运行过程中随时调整方向，最终无需额外迭代即可获得更符合需求的答案。GPT-5.4 Thinking 还改进了深度网络搜索，尤其是在处理高度具体的查询时，同时能够更好地保留需要长时间思考的问题的上下文信息。这些改进共同作用，意味着能够更快地获得更高质量、更贴合当前任务的答案。

在 Codex 和 API 中，GPT-5.4 是首个具备原生、最先进的计算机使用能力的通用模型，它使智能体能够操作计算机并在各种应用程序中执行复杂的流程。GPT-5.4 还通过工具搜索功能改进了模型在大型工具和连接器生态系统中的运行方式，帮助智能体更高效地找到并使用合适的工具，同时又不牺牲智能水平。

GPT-5.4 也是目前 OpenAI token 效率最高的推理模型，与 GPT-5.2 相比，它解决问题所需的 token 数量显著减少，这意味着更少的费用和更快的速度。

结合通用推理、编码和专业知识工作的进步，GPT-5.4 能够实现更可靠的智能体、更快的开发者工作流程以及 ChatGPT、API 和 Codex 的更高质量输出。

OpenAI 重点提升了 GPT-5.4 创建和编辑电子表格、演示文稿和文档的能力。在一系列演示文稿评估提示中，由于 GPT-5.4 的演示文稿具有更强的美观性、更丰富的视觉效果以及更高效的图像生成功能，获得了人类评分者的青睐。

OpenAI 研究科学家，德扑 AI Libratus 的发明者 Noam Brown 表示，GPT-5.4 在计算机应用和经济价值任务（例如 GDPval）上已取得了巨大进步。鉴于此，科学家们认为人工智能的发展前景广阔，预计今年内 AI 能力将继续大幅提升。

智力的指数增长还在继续。有人表示，ChatGPT 很快就会比最好的咨询公司、最好的投资银行和最好的律师事务所都更出色。

最后，很多人已经在使用 GPT-5.4 尝试各种任务了，不知道新一代模型具体表现如何。

有人已经认为，GPT-5.4 Pro 达到了 AGI 级别的智能。现在，你有什么 AGI 级别的问题要问吗？

参考内容：

openai.com/index/intro...

openai.com/index/gpt-5...