GPT-5.4 来了,OpenAI 终于急了,操控电脑超越人类,国内怎么用?

终于,OpenAI开始发力了!

就在前天,OpenAI推出GPT-5.3 Instant,时隔两天,OpenAI紧接着又推出GPT-5.4 Thinking和GPT-5.4 Pro两款模型。

OpenAI 一直有一个很核心的痛点。

Claude 吧,写东西好,代码强,说话有人味,但是贵得离谱,而且 Anthropic 那边还在疯狂封国内用户的账号。

GPT 这边吧,便宜是真便宜,订阅额度也能用。

GPT-5.3-Codex-high 的编程能力其实已经很能打了,真实生产环境任务的胜率是 56.44%,Claude Opus 4.6 只有 43.56%,数据摆在那儿。

但奇怪的是,全世界好像还是觉得 Opus 4.6 更强,在 CC 里写代码更牛。

OpenAI 看着这局面,急了,坐不住了。

于是更强的GPT-5.4来了!

这次跑分,我只挑几个真正有意义的说

GDPval 测的是 AI 在真实工作场景里的表现,不是那种学术题,是你每天真实会遇到的任务:写财务模型、做演示文稿、排班次。把输出结果拿给行业里的真人打分,看 AI 能赢过多少比例的同行。

GPT-5.4 的答案是 83%,上代是 70.9%,Claude Opus 4.6 是 78%。

SWE-Bench Pro 测真实软件工程任务,GPT-5.4 是 57.7%,GPT-5.3-Codex 是 56.8%。

也就是说,代码能力没有牺牲,还比上一代强了一点点。

操控电脑这块,OSWorld 测试,GPT-5.4 成功率 75%,人类基线是 72.4%。

它不只是追上了人类,是超过了。

我用大白话翻译一下就是:GPT-5.4 = GPT-5.3-Codex 的代码能力 + 比 GPT-5.2 还强的世界知识 + 更强的电脑操控能力

还有大家诟病的速度慢问题,GPT-5.4又提速啦(之前已经提速过了)

还有大家最关心的价格问题。

API 标准版定价为输入 2.50 美元/百万 Token,缓存输入 0.25 美元/百万 Token,输出 15 美元/百万 Token。

Pro 版为输入 30 美元/百万 Token,输出 180 美元/百万 Token。

Batch 和 Flex 处理享标准价格五折,Priority Processing 为两倍标准价格。

原生操控电脑,这件事比你想象的更重要

以前的电脑操控能力是个独立模块,跟模型本身是分开的,中间要绕一圈,效率打折。

GPT-5.4 是 OpenAI 第一款把电脑操控能力直接内置进主线模型的产品。

它不只是会写控制电脑的代码,还能直接看着截图发鼠标和键盘指令,两种方式同时上。

有个案例,Mainstay 拿它处理三万个物业税务门户网站的表单填写,首次成功率 95%,三次以内 100%,速度提升三倍,Token 消耗降 70%。

还有一个新功能叫 Playwright Interactive,允许 Codex 在写 Web 应用的时候,边写代码边在可视化浏览器里实时调试,模型自己同时扮演开发者和测试员。

OpenAI 发布了个案例,用一条轻量提示词,GPT-5.4 生成了一个完整的等距主题公园模拟游戏,游客 AI 自己会寻路排队,四项评分指标实时更新,Playwright 全程跑自动化测试。从写代码到测试验收,模型全程自己搞定。

另外值得一提的是 GPT-5.4 Pro,这个版本更暴力,但也更贵,得 Pro 会员 200 刀那个档才能用。

有人测了一下,发了一句"Hi",Pro 版开始认真推理,直接烧了 80 美元。

好,这就是推理模型的特点,不管你问什么,它都要深度思考一番。日常用标准版就够了,Pro 的算力留给真正值得的任务。

目前这个模型已经在ChatGPT中可以使用了。

Codex也可以正常调用!

最后也是大家最关心的话题,怎么用?

订阅方面,GPT-5.4 包含在 ChatGPT Plus 里。国内没有海外信用卡的话,可以看我之前的文章,有介绍。

相关阅读:不是礼品卡,不是虚拟卡,2025最新ChatGPT Plus订阅教程,小白都学得会!

GPT-5.4 从今天开始正式取代 GPT-5.2 Thinking 成为默认的思考模型,GPT-5.2 Thinking 会在 6 月 5 日正式退役。

2026 年真是疯狂的一年。

感觉这个行业每隔两周就要重新理解一遍世界。

相关推荐
健了个平_2421 分钟前
LottieConverter:一键生成 .lottie 文件
ios·chatgpt·动效
爱吃的小肥羊27 分钟前
Codex 被 OpenAI 做成插件,塞进了 Claude Code,这招绝了!
openai·ai编程
魁首2 小时前
Claude Code 源码泄露的背后,到底与Codex,Gemini 有啥不一样?
前端·openai·claude
今天也要学习吖2 小时前
开源AI智能客服系统AI-CS
人工智能·ui·chatgpt·golang·开源·gemini·智能客服系统
机器之心3 小时前
京东卷出新高度!硬刚「复杂指令」长时长、自由态数字人直播终于丝滑了
人工智能·openai
机器之心3 小时前
龙虾太难养?发布的SOLO独立端,可能是你要的AI生产力
人工智能·openai
Mac的实验室3 小时前
『保姆级教程』2026 最新 ChatGPT 注册教程来了!无需手机号,三分钟搞定!
chatgpt
DigitalOcean5 小时前
当所有人都在讨论 AI 工具时,我们已经用 AI 跑通了一家公司
openai·agent·claude
嵌入式-小王5 小时前
OpenAI库的基础使用
llm·openai
Lupino6 小时前
实测 Codex:它是如何精准地把“正常代码”修出死循环的?
openai·haskell