**一文读懂GPT-5发布会精简版|价格屠夫、编程惊艳,新功能乏善可陈**

先说结论:GPT-5在价格、编程、低幻觉率和上下文能力上表现突出,但整体性能提升有限,多模态和新功能乏善可陈。价格战对Anthropic形成威胁、业内参数Scaling Law和Test-Time Compute Scaling Law效应放缓、OpenAI通过跨代模型生成高质量合成数据,构建递归式改进循环,但效果有限,数据瓶颈仍未完全解决。

核心亮点

  1. 价格优势
  • GPT-5 API价格极具竞争力,输入每百万token仅1.25美元,输出10美元,低于GPT-4o、Gemini 2.5 Pro及Claude Opus 4.1(后者价格高15倍)。

  • 免费用户可每天使用数小时,Plus用户享有更高额度,mini和nano版本价格也低于竞品。

  1. 编程能力提升
  • GPT-5在"智能体式编码"(Agentic Coding)上有显著进步,能处理复杂编程任务,主动沟通计划、修复bug,并优化前端开发(如生成400行飞机空气动力学展示代码)。

  • "修Bug"能力突出,能深入代码库分析结构、定位问题并自动修复,解决传统AI编程在旧代码迭代上的痛点。

  • 在Tau测试中,工具调用能力提升明显,特别是在电信领域。

  1. 低幻觉率与上下文能力
  • 幻觉率显著降低,比GPT-4o低45%,比o3低80%,在工业应用中至关重要。

  • 上下文窗口扩展至400k token,精准度翻倍,适合处理复杂长文本任务。

不足之处

  1. 性能提升有限
  • GPT-5在多项基准测试中仅略超o3和Grok 4,综合评分仅比o3高2分,比Grok 4高1分,未展现革命性突破。

  • 在Arc Prize(AGI测试)中远落后于Grok 4,前沿数学测试仅Pro模式优于ChatGPT Agent。

  1. 多模态短板
  • 仅支持文字和图像理解,不支持音频输入/输出、图像生成或视频处理,与Gemini和Genie 3相比差距明显。
  1. 新功能平淡
  • 写作优化(更有人味儿)、语音功能(自然但不突出)、记忆功能(仅整合Gmail和Google Calendar)以及个性化界面等新功能缺乏亮点,属"标配"水平。
  1. 发布会问题
  • PPT数据展示错误(如SWE Benchmark和Tau 2 Benchmark比例失真),引发网友嘲讽,强化OpenAI"炒作"形象。

  • 演示冗长、缺乏冲击力,相比Anthropic和Gemini的展示逊色。

行业背景与影响

  1. 数据瓶颈回应
  • OpenAI通过跨代模型生成高质量合成数据,构建递归式改进循环,但效果有限,数据瓶颈仍未完全解决。
  1. AI行业趋势
  • GPT-5的"小步前进"反映参数Scaling Law和Test-Time Compute Scaling Law放缓,低垂果实已摘尽。

  • AI行业可能进入务实竞争阶段,需新突破重回指数级增长。

  1. 竞争格局
  • 价格战对Anthropic形成威胁,但Grok 4在部分测试(如Arc Prize)领先,发布会后舆论对OpenAI评价下滑。
相关推荐
和平hepingfly1 天前
Claude 新发布的 Agent Skills 到底是啥?居然比 MCP 还厉害?
ai编程
吉米侃AI1 天前
10分钟用AI做出第一个游戏!复刻童年黄金矿工
ai编程·claude
用户4099322502121 天前
只给表子集建索引?用函数结果建索引?PostgreSQL这俩操作凭啥能省空间又加速?
后端·ai编程·trae
卷福同学1 天前
【AI绘画】你有多久没有打开SD了?
后端·aigc·ai编程
AI产品自由1 天前
OpenAI Codex 保姆级教程!10块轻松上手!
ai编程
Simon_He2 天前
最强流式渲染,没有之一
前端·面试·ai编程
win4r2 天前
🚀 程序员必看让AI编程100%可控!从1到N的开发神器OpenSpec规范驱动开发完整实战指南!支持Cursor、Claude Code、Codex!比Sp
ai编程·claude·vibecoding
腾讯云云开发2 天前
追番新姿势: 美少女程序员用CloudBase+CodeBuddy 8分钟手搓追番神器!!!
serverless·ai编程·小程序·云开发
闲不住的李先森2 天前
使用Context7:告别AI“幻觉”,让编程助手永远生成最新、可用的代码
前端·ai编程·cursor