GPT-5.4深夜发布，最适合Agent开发的天选模型登场了

大家好，我是子昕。

昨晚GPT-5.4深夜突然发布，我看到消息的那一刻就激动了。

作为一个在AI编程领域持续探索的开发者，我太清楚一个好的Agent基座模型有多重要了。GPT-5.4这次发布，可以说是OpenClaw等Agent框架期待已久的正式版首选模型。

为什么GPT-5.4这么重要

一个好的Agent基座模型，需要同时具备三种能力：代码能力 、世界知识 、多模态理解。

但之前的模型都有各自的短板：

GPT-5.3-Codex：代码能力极强，但世界知识匮乏。跟它沟通对非技术人员来说有点像"说天书"，你想聊业务需求，它给你一堆技术术语。

Claude Opus 4.6：代码和世界知识都强，但价格贵得肉疼。更要命的是，订阅额度没法直接用在OpenClaw上，只能走API Key，成本更高。

GPT-5.4的出现，把这些能力整合到了一起。价格比Claude便宜得多，还支持订阅额度直接用在第三方工具上。OpenAI一直对第三方工具很开放，Codex用户可以直接在OpenCode里用，还给了额外的额度。这个态度真的很不错。

跑分表现怎么样

GDPval：83.0%

这个benchmark测的是AI在44种职业（金融、法律、销售等）里做知识工作的能力。83%意味着它能用"人话"跟你聊业务，不再像以前那样"说天书"。

这对Agent来说太关键了。Agent不只是写代码，还得理解业务、跟人沟通。GPT-5.4终于补上了Codex最大的短板。

SWE-Bench Pro：57.7%

解决真实软件工程问题的能力，跟GPT-5.3-Codex（56.8%）基本持平，支持多种编程语言。说明它在保持顶级编程能力的同时，代码质量没打折扣。

OSWorld-Verified：75.0%

操作电脑的能力达到75%，超过了人类的72.4%，也超过了Claude Opus 4.6的72.7%。这是计算机使用能力的重大突破。

Toolathlon：54.6%

Agent工具使用能力54.6%，比Claude Opus 4.6的44.8%高不少。意思是它能更准确地判断什么时候该用哪个工具，完成多步骤任务。

总结一下

GPT-5.4把GPT-5.3-Codex的强代码能力和GPT-5.2的强世界知识结合起来了。支持订阅额度，价格又便宜，大规模用起来不心疼。综合下来，就是最适合OpenClaw的"天选基座"。

三个杀手级新特性

100万Token上下文

从GPT-5.3的40万Token直接跳到100万Token。

这对Agent来说太重要了。Agent执行长任务时，需要记住整个工作流程。上下文小了，干到一半就"失忆"了，前面做的全白费。100万Token就是给Agent配了个超大记事本，从头到尾都记得清清楚楚。

注意：超过27万Token会按两份额度算。不过Codex给的额度挺足的，实际用起来影响不大。

原生计算机使用能力

GPT-5.4是OpenAI第一个内置计算机使用能力的主模型。

它能写代码通过Playwright操作电脑，也能看着截图发出鼠标键盘命令。支持代码和视觉两种方式调试Web/Electron应用。

这个能力太强了。

以前Agent只能通过API调工具，现在可以真的"看着屏幕"操作软件了。比如从邮件提取附件、上传到云盘、整理进表格，这种以前要人工一步步点的活，现在Agent能自己干了。

工具搜索

以前模型要提前加载所有工具定义，几十个工具就是几万个Token，每次请求都要付这个成本。

现在GPT-5.4换了个思路：给它一个轻量的工具列表，需要用哪个工具时再临时查定义。

测下来，Token用量直接减少47%，准确率还不变。对于MCP服务器那种工具定义特别大的场景，省下来的钱真不少。

怎么用，多少钱

价格

GPT-5.4已经在ChatGPT、API和Codex里上线了。价格比Claude Opus 4.6便宜一半，性价比高多了。

还有个GPT-5.4 Pro版本，功能更强，但要200美元会员。适合企业用户或者对性能要求特别高的场景。对大部分人来说，标准版够用了。

ChatGPT专属功能

在ChatGPT里用GPT-5.4 Thinking模式，它会先告诉你打算怎么干。更棒的是，你可以在它干活过程中随时调整方向，不用等它干完再重来。这个交互方式效率高太多了。

网络搜索能力也增强了不少。那种我知道答案在某个地方，但不知道具体在哪的问题，它能跨多轮搜索，找到最相关的来源，综合成清晰的答案。

对Agent开发意味着什么

GPT-5.4对Agent开发来说，真的是个理想模型：

能力全面：编程、世界知识、计算机使用、工具协作，该有的都有了，不用在不同模型之间切来切去。

上下文够大：100万Token，再长的任务也不怕"失忆"。

成本可控：工具搜索省47%的Token，价格又比Claude便宜一半，大规模用起来不心疼。

生态开放：OpenAI支持第三方工具直接用订阅额度，开发者可以在OpenClaw这些框架里直接用GPT-5.4。

这些加起来，让GPT-5.4成了构建强大Agent的理想基座。

我会继续深度测试GPT-5.4的实际表现，后续带来更多实战经验和踩坑记录。如果你也在探索Agent开发，欢迎评论区交流。

更多内容，欢迎关注【子昕AI编程】微信公众号！