GPT-5.4上线，编程能力超过Claude Opus 4.6

OpenAI于2026年3月5日正式发布了GPT-5.4。

它最大的突破在于将"思考能力（Reasoning）"、"编程能力"和"原生计算机操作能力（Native Computer Use）"融为一体。

GPT-5.4 = GPT 5.2全面升级 + GPT-5.3-Codex级别的编程能力 + 百万Token上下文窗口 + 工具搜索机制。

据官方介绍，没有为整合而牺牲任何单项能力。

简而言之，OpenAI把现有的最强技术，全部all in GPT 5.4 了。

📊 对比上一代旗舰GPT 5.2

1、专业知识工作能力

GPT-5.4 在专业知识工作领域的进步可以说是此次升级的最大亮点。

OpenAI 使用了一个名为 GDPval 的基准测试来衡量模型在真实职业场景中的表现，该测试覆盖了美国 GDP 贡献最大的 9 个行业、44 个职业方向，任务涵盖制作销售演示文稿、会计电子表格、医疗排班表、制造业图纸甚至短视频等各类实际工作产物。

结果非常亮眼：GPT-5.4 在 83.0% 的任务对比中达到或超越了人类行业专家水平，而 GPT-5.2 的这一数字为 70.9%。这意味着 GPT-5.4 已经在绝大多数专业工作中具备了与资深从业者相媵美甚至更优的能力。

随着AI越来越强，公司引进AI辅助工作、裁员（AI替代）、降本增效，细思极恐。

2、智能指数

在"Artificial Analysis 智能指数"图表中，GPT-5.4 的表现非常强悍。

GPT-5.4 取得了 57分的综合高分，与 Google 的 Gemini 3.1 Pro Preview 并列第一，共同领跑所有 AI 模型。

图中醒目的紫色箭头直观地展示了代际跨越。从 GPT-5.2（51分）到 GPT-5.4，分数的大幅提升代表了模型"智力"的质变。

它不仅击败了自家之前的 GPT-5.3（54分），也超越了强劲的竞争对手 Claude Opus 4.6（53分）。

3、事实准确性

幻觉（即 AI 一本正经地胡说八道）一直是大语言模型的核心痛点。GPT-5.4 在这方面实现了明显进步，成为 OpenAI 有史以来事实准确性最高的模型。

在一组用户实际反馈中标记了事实错误的提示词测试中，与 GPT-5.2 相比，GPT-5.4 的单个事实陈述出错率降低了 33%，完整回答中包含任何错误的概率降低了 18%。

简单来说，不管是单个知识点还是整体回答，GPT-5.4 犯错的可能性都大幅下降了。这对于依赖 AI 做研究、写报告、做决策的专业用户来说，意义重大。

4、原生计算机操控能力：AI 真正学会了用电脑

GPT-5.4 最令人兴奋的新功能之一，就是它成为了 OpenAI 首个原生支持计算机使用（Computer Use）的通用模型。这意味着 AI 智能体可以像人类一样通过截屏观察屏幕画面、通过键盘和鼠标指令操作软件，自主完成跨应用的复杂工作流程。

在衡量计算机操控能力的 OSWorld-Verified 基准测试中，GPT-5.4 取得了 75.0% 的成功率，不仅远远超过 GPT-5.2 的 47.3%（提升近 28 个百分点），甚至超过了人类操作者的 72.4%。这是 AI 在桌面操作任务上首次超越人类表现。

5、编码能力：继承并超越 Codex

GPT-5.4 融合了此前 GPT-5.3-Codex 的编码优势。

在真实软件工程能力的 SWE-Bench Pro 基准测试中，GPT-5.4 得分 57.7%，与 GPT-5.3-Codex 的 56.8% 持平甚至略优，同时 GPT-5.2 为 55.6%。虽然编码方面的绝对分数提升不算巨大，但 GPT-5.4 的优势在于将这些编码能力与推理、工具调用和计算机操控等能力无缝整合到了一起。