GPT-5.4上线,编程能力超过Claude Opus 4.6

OpenAI于2026年3月5日正式发布了GPT-5.4。

它最大的突破在于将"思考能力(Reasoning)"、"编程能力"和"原生计算机操作能力(Native Computer Use)"融为一体。

GPT-5.4 = GPT 5.2全面升级 + GPT-5.3-Codex级别的编程能力 + 百万Token上下文窗口 + 工具搜索机制。

据官方介绍,没有为整合而牺牲任何单项能力。

简而言之,OpenAI把现有的最强技术,全部all in GPT 5.4 了。

📊 对比上一代旗舰GPT 5.2

1、专业知识工作能力

GPT-5.4 在专业知识工作领域的进步可以说是此次升级的最大亮点。

OpenAI 使用了一个名为 GDPval 的基准测试来衡量模型在真实职业场景中的表现,该测试覆盖了美国 GDP 贡献最大的 9 个行业、44 个职业方向,任务涵盖制作销售演示文稿、会计电子表格、医疗排班表、制造业图纸甚至短视频等各类实际工作产物。

结果非常亮眼:GPT-5.4 在 83.0% 的任务对比中达到或超越了人类行业专家水平,而 GPT-5.2 的这一数字为 70.9%。这意味着 GPT-5.4 已经在绝大多数专业工作中具备了与资深从业者相媵美甚至更优的能力。

随着AI越来越强,公司引进AI辅助工作、裁员(AI替代)、降本增效,细思极恐。

2、智能指数

在"Artificial Analysis 智能指数"图表中,GPT-5.4 的表现非常强悍。

GPT-5.4 取得了 57分 的综合高分,与 Google 的 Gemini 3.1 Pro Preview 并列第一,共同领跑所有 AI 模型。

图中醒目的紫色箭头直观地展示了代际跨越。从 GPT-5.2(51分)到 GPT-5.4,分数的大幅提升代表了模型"智力"的质变。

它不仅击败了自家之前的 GPT-5.3(54分),也超越了强劲的竞争对手 Claude Opus 4.6(53分)。

3、事实准确性

幻觉(即 AI 一本正经地胡说八道)一直是大语言模型的核心痛点。GPT-5.4 在这方面实现了明显进步,成为 OpenAI 有史以来事实准确性最高的模型。

在一组用户实际反馈中标记了事实错误的提示词测试中,与 GPT-5.2 相比,GPT-5.4 的单个事实陈述出错率降低了 33%,完整回答中包含任何错误的概率降低了 18%。

简单来说,不管是单个知识点还是整体回答,GPT-5.4 犯错的可能性都大幅下降了。这对于依赖 AI 做研究、写报告、做决策的专业用户来说,意义重大。

4、原生计算机操控能力:AI 真正学会了用电脑

GPT-5.4 最令人兴奋的新功能之一,就是它成为了 OpenAI 首个原生支持计算机使用(Computer Use)的通用模型。这意味着 AI 智能体可以像人类一样通过截屏观察屏幕画面、通过键盘和鼠标指令操作软件,自主完成跨应用的复杂工作流程。

在衡量计算机操控能力的 OSWorld-Verified 基准测试中,GPT-5.4 取得了 75.0% 的成功率,不仅远远超过 GPT-5.2 的 47.3%(提升近 28 个百分点),甚至超过了人类操作者的 72.4%。这是 AI 在桌面操作任务上首次超越人类表现。

5、编码能力:继承并超越 Codex

GPT-5.4 融合了此前 GPT-5.3-Codex 的编码优势。

在真实软件工程能力的 SWE-Bench Pro 基准测试中,GPT-5.4 得分 57.7%,与 GPT-5.3-Codex 的 56.8% 持平甚至略优,同时 GPT-5.2 为 55.6%。虽然编码方面的绝对分数提升不算巨大,但 GPT-5.4 的优势在于将这些编码能力与推理、工具调用和计算机操控等能力无缝整合到了一起。

6、视觉理解与文档解析能力提升

GPT-5.4 在视觉能力方面同样有所进步。

在 MMMU-Pro 视觉理解与推理测试中,GPT-5.4 取得了 81.2% 的成功率,高于 GPT-5.2 的 79.5%。在 OmniDocBench 文档解析测试中,GPT-5.4 的平均错误率降至 0.109,优于 GPT-5.2 的 0.140。

从 GPT-5.4 开始,API 还新增了 original 图像输入级别,最高支持 1024 万总像素或单边最大 6000 像素的全保真图像感知;原有的 high 级别也升级到了 256 万总像素。这使得模型在处理高分辨率图像、精密文档和复杂图表时更加得心应手。

7、💰 价格与可用性对比

虽然能力变强了,但在API价格上,GPT-5.4相比GPT-5.2有所上涨,反映了其更高的计算成本和价值。

国内使用GPT 5.4 Thinking、GPT 5.4 Pro

谷歌浏览器访问:www.nezhasoft.com

包含GPT 5.3、GPT 5.4 Thinking、GPT 5.4 Pro、Gemini 3.1 Pro、Nano Banana Pro、Claude Sonnet 4.6、Codex、Grok4.2等模型。

GPT 5.4初体验

版本号

你是什么模型,具体是什么版本号,知识截止日期是几号

GPT 5.4 - 深度研究

提示词:OpenAI发布最新旗舰模型GPT 5.4,总结其更新内容

200美金/月的GPT 5.4 Pro

写作王者 - Gemini 3.1 Pro

编程王者 - Claude Sonnet 4.6

请用 Java 设计并实现一个支持高并发的电商微服务系统(基于 Spring Boot/Spring Cloud),要求包含订单、库存等服务,需解决分布式事务与超卖问题,使用 Redis/Kafka 进行异步解耦,并提供核心代码、配置及部署方案,同时说明高并发优化与容错限流设计思路。

AI绘画 - 香蕉Nano Banana Pro

提示词:用这张图片,做一个 3 * 3的photo booth grid,要使用不同的姿势和表情

相关推荐
万少3 小时前
使用Trae轻松安装openclaw的教程-附带免费token
前端·openai·ai编程
gyx_这个杀手不太冷静4 小时前
让 AI 替你写代码:OpenCode 完全配置与高效使用手册
前端·ai编程
摆烂工程师6 小时前
GPT-5.4 发布!再看 OpenClaw:AI 真正危险的,不是更会聊天,而是开始自己“干活”
人工智能·openai·ai编程
机器之心20 小时前
OpenClaw绝配!GPT-5.4问世,AI能力开始大一统,就是太贵
人工智能·openai
机器之心20 小时前
海外华人15人团队打造,统一理解与生成的图像模型,超越Nano banana登顶图像编辑
人工智能·openai
恋猫de小郭21 小时前
你用的 Claude 可能是虚假 Claude ,论文数据告诉你,Shadow API 中的欺骗性模型声明
前端·人工智能·ai编程
cipher1 天前
HAPI + 设备指纹认证:打造更安全的远程编程体验
前端·后端·ai编程