**一文读懂GPT-5发布会精简版|价格屠夫、编程惊艳,新功能乏善可陈**

先说结论:GPT-5在价格、编程、低幻觉率和上下文能力上表现突出,但整体性能提升有限,多模态和新功能乏善可陈。价格战对Anthropic形成威胁、业内参数Scaling Law和Test-Time Compute Scaling Law效应放缓、OpenAI通过跨代模型生成高质量合成数据,构建递归式改进循环,但效果有限,数据瓶颈仍未完全解决。

核心亮点

  1. 价格优势
  • GPT-5 API价格极具竞争力,输入每百万token仅1.25美元,输出10美元,低于GPT-4o、Gemini 2.5 Pro及Claude Opus 4.1(后者价格高15倍)。

  • 免费用户可每天使用数小时,Plus用户享有更高额度,mini和nano版本价格也低于竞品。

  1. 编程能力提升
  • GPT-5在"智能体式编码"(Agentic Coding)上有显著进步,能处理复杂编程任务,主动沟通计划、修复bug,并优化前端开发(如生成400行飞机空气动力学展示代码)。

  • "修Bug"能力突出,能深入代码库分析结构、定位问题并自动修复,解决传统AI编程在旧代码迭代上的痛点。

  • 在Tau测试中,工具调用能力提升明显,特别是在电信领域。

  1. 低幻觉率与上下文能力
  • 幻觉率显著降低,比GPT-4o低45%,比o3低80%,在工业应用中至关重要。

  • 上下文窗口扩展至400k token,精准度翻倍,适合处理复杂长文本任务。

不足之处

  1. 性能提升有限
  • GPT-5在多项基准测试中仅略超o3和Grok 4,综合评分仅比o3高2分,比Grok 4高1分,未展现革命性突破。

  • 在Arc Prize(AGI测试)中远落后于Grok 4,前沿数学测试仅Pro模式优于ChatGPT Agent。

  1. 多模态短板
  • 仅支持文字和图像理解,不支持音频输入/输出、图像生成或视频处理,与Gemini和Genie 3相比差距明显。
  1. 新功能平淡
  • 写作优化(更有人味儿)、语音功能(自然但不突出)、记忆功能(仅整合Gmail和Google Calendar)以及个性化界面等新功能缺乏亮点,属"标配"水平。
  1. 发布会问题
  • PPT数据展示错误(如SWE Benchmark和Tau 2 Benchmark比例失真),引发网友嘲讽,强化OpenAI"炒作"形象。

  • 演示冗长、缺乏冲击力,相比Anthropic和Gemini的展示逊色。

行业背景与影响

  1. 数据瓶颈回应
  • OpenAI通过跨代模型生成高质量合成数据,构建递归式改进循环,但效果有限,数据瓶颈仍未完全解决。
  1. AI行业趋势
  • GPT-5的"小步前进"反映参数Scaling Law和Test-Time Compute Scaling Law放缓,低垂果实已摘尽。

  • AI行业可能进入务实竞争阶段,需新突破重回指数级增长。

  1. 竞争格局
  • 价格战对Anthropic形成威胁,但Grok 4在部分测试(如Arc Prize)领先,发布会后舆论对OpenAI评价下滑。
相关推荐
恋猫de小郭7 分钟前
Tailwind 因为 AI 的裁员“闹剧”结束,而 AI 对开源项目的影响才刚刚开始
前端·flutter·ai编程
清沫9 小时前
Claude Skills:Agent 能力扩展的新范式
前端·ai编程
程序员佳佳10 小时前
【万字硬核】从零构建企业级AI中台:基于Vector Engine整合GPT-5.2、Sora2与Veo3的落地实践指南
人工智能·gpt·chatgpt·ai作画·aigc·api·ai编程
小小小小小鹿11 小时前
# 险些酿成P0事故!我用 AI 打造了 Android 代码评审“守门员”
agent·ai编程
野生的码农11 小时前
做好自己的份内工作,等着被裁
程序员·ai编程·vibecoding
草梅友仁12 小时前
墨梅博客 1.0.0 发布与更新 | 2026 年第 2 周草梅周报
github·ai编程·nuxt.js
draking14 小时前
1小时用Skill搭一个文章数据追踪系统,踩了 3 个坑
ai编程
peterfei14 小时前
IfAI v0.2.8 技术深度解析:从"工具"到"平台"的架构演进
rust·ai编程
fox_mt15 小时前
AI Coding - ClaudeCode使用指南
java·ai编程
小碗细面17 小时前
OpenCode:你的开源 AI 编程助手完全指南
ai编程