GPT-5.4 来了,OpenAI 终于急了,操控电脑超越人类,国内怎么用?

终于,OpenAI开始发力了!

就在前天,OpenAI推出GPT-5.3 Instant,时隔两天,OpenAI紧接着又推出GPT-5.4 Thinking和GPT-5.4 Pro两款模型。

OpenAI 一直有一个很核心的痛点。

Claude 吧,写东西好,代码强,说话有人味,但是贵得离谱,而且 Anthropic 那边还在疯狂封国内用户的账号。

GPT 这边吧,便宜是真便宜,订阅额度也能用。

GPT-5.3-Codex-high 的编程能力其实已经很能打了,真实生产环境任务的胜率是 56.44%,Claude Opus 4.6 只有 43.56%,数据摆在那儿。

但奇怪的是,全世界好像还是觉得 Opus 4.6 更强,在 CC 里写代码更牛。

OpenAI 看着这局面,急了,坐不住了。

于是更强的GPT-5.4来了!

这次跑分,我只挑几个真正有意义的说

GDPval 测的是 AI 在真实工作场景里的表现,不是那种学术题,是你每天真实会遇到的任务:写财务模型、做演示文稿、排班次。把输出结果拿给行业里的真人打分,看 AI 能赢过多少比例的同行。

GPT-5.4 的答案是 83%,上代是 70.9%,Claude Opus 4.6 是 78%。

SWE-Bench Pro 测真实软件工程任务,GPT-5.4 是 57.7%,GPT-5.3-Codex 是 56.8%。

也就是说,代码能力没有牺牲,还比上一代强了一点点。

操控电脑这块,OSWorld 测试,GPT-5.4 成功率 75%,人类基线是 72.4%。

它不只是追上了人类,是超过了。

我用大白话翻译一下就是:GPT-5.4 = GPT-5.3-Codex 的代码能力 + 比 GPT-5.2 还强的世界知识 + 更强的电脑操控能力

还有大家诟病的速度慢问题,GPT-5.4又提速啦(之前已经提速过了)

还有大家最关心的价格问题。

API 标准版定价为输入 2.50 美元/百万 Token,缓存输入 0.25 美元/百万 Token,输出 15 美元/百万 Token。

Pro 版为输入 30 美元/百万 Token,输出 180 美元/百万 Token。

Batch 和 Flex 处理享标准价格五折,Priority Processing 为两倍标准价格。

原生操控电脑,这件事比你想象的更重要

以前的电脑操控能力是个独立模块,跟模型本身是分开的,中间要绕一圈,效率打折。

GPT-5.4 是 OpenAI 第一款把电脑操控能力直接内置进主线模型的产品。

它不只是会写控制电脑的代码,还能直接看着截图发鼠标和键盘指令,两种方式同时上。

有个案例,Mainstay 拿它处理三万个物业税务门户网站的表单填写,首次成功率 95%,三次以内 100%,速度提升三倍,Token 消耗降 70%。

还有一个新功能叫 Playwright Interactive,允许 Codex 在写 Web 应用的时候,边写代码边在可视化浏览器里实时调试,模型自己同时扮演开发者和测试员。

OpenAI 发布了个案例,用一条轻量提示词,GPT-5.4 生成了一个完整的等距主题公园模拟游戏,游客 AI 自己会寻路排队,四项评分指标实时更新,Playwright 全程跑自动化测试。从写代码到测试验收,模型全程自己搞定。

另外值得一提的是 GPT-5.4 Pro,这个版本更暴力,但也更贵,得 Pro 会员 200 刀那个档才能用。

有人测了一下,发了一句"Hi",Pro 版开始认真推理,直接烧了 80 美元。

好,这就是推理模型的特点,不管你问什么,它都要深度思考一番。日常用标准版就够了,Pro 的算力留给真正值得的任务。

目前这个模型已经在ChatGPT中可以使用了。

Codex也可以正常调用!

最后也是大家最关心的话题,怎么用?

订阅方面,GPT-5.4 包含在 ChatGPT Plus 里。国内没有海外信用卡的话,可以看我之前的文章,有介绍。

相关阅读:不是礼品卡,不是虚拟卡,2025最新ChatGPT Plus订阅教程,小白都学得会!

GPT-5.4 从今天开始正式取代 GPT-5.2 Thinking 成为默认的思考模型,GPT-5.2 Thinking 会在 6 月 5 日正式退役。

2026 年真是疯狂的一年。

感觉这个行业每隔两周就要重新理解一遍世界。

相关推荐
小碗细面3 小时前
GPT-5.4 深度评测:百万上下文+原生操控电脑,这次真的超越人类了?
chatgpt·ai编程
踩着两条虫5 小时前
如何让AI精准修改你的Vue代码?揭秘增量更新器实现原理
人工智能·openai·ai编程
机器之心6 小时前
高德纳:「震惊!震惊!」Claude破解《计算机程序设计艺术》难题
人工智能·openai
机器之心1 天前
让AI自我进化?斯坦福华人博士答辩视频火了,庞若鸣参与评审
人工智能·openai
狗胜1 天前
二等兵·甘: 当 Agent 开始替你做决定,系统治理就不是可选项
openai
王小酱1 天前
Everything Claude Code 新手教学指南(中文版)
openai·ai编程·claude
树獭叔叔1 天前
19-为什么AI工程这么喜欢"创造名词":从Prompt到Skill的造词运动
后端·aigc·openai
xun_xing1 天前
一篇文章让你彻底熟悉AI大模型(一)
llm·openai·ai编程