GPT-5.4 来了，OpenAI 终于急了，操控电脑超越人类，国内怎么用？

终于，OpenAI开始发力了！

就在前天，OpenAI推出GPT-5.3 Instant，时隔两天，OpenAI紧接着又推出GPT-5.4 Thinking和GPT-5.4 Pro两款模型。

OpenAI 一直有一个很核心的痛点。

Claude 吧，写东西好，代码强，说话有人味，但是贵得离谱，而且 Anthropic 那边还在疯狂封国内用户的账号。

GPT 这边吧，便宜是真便宜，订阅额度也能用。

GPT-5.3-Codex-high 的编程能力其实已经很能打了，真实生产环境任务的胜率是 56.44%，Claude Opus 4.6 只有 43.56%，数据摆在那儿。

但奇怪的是，全世界好像还是觉得 Opus 4.6 更强，在 CC 里写代码更牛。

OpenAI 看着这局面，急了，坐不住了。

于是更强的GPT-5.4来了！

这次跑分，我只挑几个真正有意义的说

GDPval 测的是 AI 在真实工作场景里的表现，不是那种学术题，是你每天真实会遇到的任务：写财务模型、做演示文稿、排班次。把输出结果拿给行业里的真人打分，看 AI 能赢过多少比例的同行。

GPT-5.4 的答案是 83%，上代是 70.9%，Claude Opus 4.6 是 78%。

SWE-Bench Pro 测真实软件工程任务，GPT-5.4 是 57.7%，GPT-5.3-Codex 是 56.8%。

也就是说，代码能力没有牺牲，还比上一代强了一点点。

操控电脑这块，OSWorld 测试，GPT-5.4 成功率 75%，人类基线是 72.4%。

它不只是追上了人类，是超过了。

我用大白话翻译一下就是：GPT-5.4 = GPT-5.3-Codex 的代码能力 + 比 GPT-5.2 还强的世界知识 + 更强的电脑操控能力

还有大家诟病的速度慢问题，GPT-5.4又提速啦（之前已经提速过了）

还有大家最关心的价格问题。

API 标准版定价为输入 2.50 美元/百万 Token，缓存输入 0.25 美元/百万 Token，输出 15 美元/百万 Token。

Pro 版为输入 30 美元/百万 Token，输出 180 美元/百万 Token。

Batch 和 Flex 处理享标准价格五折，Priority Processing 为两倍标准价格。

原生操控电脑，这件事比你想象的更重要

以前的电脑操控能力是个独立模块，跟模型本身是分开的，中间要绕一圈，效率打折。

GPT-5.4 是 OpenAI 第一款把电脑操控能力直接内置进主线模型的产品。

它不只是会写控制电脑的代码，还能直接看着截图发鼠标和键盘指令，两种方式同时上。

有个案例，Mainstay 拿它处理三万个物业税务门户网站的表单填写，首次成功率 95%，三次以内 100%，速度提升三倍，Token 消耗降 70%。

还有一个新功能叫 Playwright Interactive，允许 Codex 在写 Web 应用的时候，边写代码边在可视化浏览器里实时调试，模型自己同时扮演开发者和测试员。

OpenAI 发布了个案例，用一条轻量提示词，GPT-5.4 生成了一个完整的等距主题公园模拟游戏，游客 AI 自己会寻路排队，四项评分指标实时更新，Playwright 全程跑自动化测试。从写代码到测试验收，模型全程自己搞定。

另外值得一提的是 GPT-5.4 Pro，这个版本更暴力，但也更贵，得 Pro 会员 200 刀那个档才能用。

有人测了一下，发了一句"Hi"，Pro 版开始认真推理，直接烧了 80 美元。

好，这就是推理模型的特点，不管你问什么，它都要深度思考一番。日常用标准版就够了，Pro 的算力留给真正值得的任务。

目前这个模型已经在ChatGPT中可以使用了。

Codex也可以正常调用！

最后也是大家最关心的话题，怎么用？

订阅方面，GPT-5.4 包含在 ChatGPT Plus 里。国内没有海外信用卡的话，可以看我之前的文章，有介绍。

GPT-5.4 从今天开始正式取代 GPT-5.2 Thinking 成为默认的思考模型，GPT-5.2 Thinking 会在 6 月 5 日正式退役。

2026 年真是疯狂的一年。

感觉这个行业每隔两周就要重新理解一遍世界。