**一文读懂GPT-5发布会精简版|价格屠夫、编程惊艳,新功能乏善可陈**

先说结论:GPT-5在价格、编程、低幻觉率和上下文能力上表现突出,但整体性能提升有限,多模态和新功能乏善可陈。价格战对Anthropic形成威胁、业内参数Scaling Law和Test-Time Compute Scaling Law效应放缓、OpenAI通过跨代模型生成高质量合成数据,构建递归式改进循环,但效果有限,数据瓶颈仍未完全解决。

核心亮点

  1. 价格优势
  • GPT-5 API价格极具竞争力,输入每百万token仅1.25美元,输出10美元,低于GPT-4o、Gemini 2.5 Pro及Claude Opus 4.1(后者价格高15倍)。

  • 免费用户可每天使用数小时,Plus用户享有更高额度,mini和nano版本价格也低于竞品。

  1. 编程能力提升
  • GPT-5在"智能体式编码"(Agentic Coding)上有显著进步,能处理复杂编程任务,主动沟通计划、修复bug,并优化前端开发(如生成400行飞机空气动力学展示代码)。

  • "修Bug"能力突出,能深入代码库分析结构、定位问题并自动修复,解决传统AI编程在旧代码迭代上的痛点。

  • 在Tau测试中,工具调用能力提升明显,特别是在电信领域。

  1. 低幻觉率与上下文能力
  • 幻觉率显著降低,比GPT-4o低45%,比o3低80%,在工业应用中至关重要。

  • 上下文窗口扩展至400k token,精准度翻倍,适合处理复杂长文本任务。

不足之处

  1. 性能提升有限
  • GPT-5在多项基准测试中仅略超o3和Grok 4,综合评分仅比o3高2分,比Grok 4高1分,未展现革命性突破。

  • 在Arc Prize(AGI测试)中远落后于Grok 4,前沿数学测试仅Pro模式优于ChatGPT Agent。

  1. 多模态短板
  • 仅支持文字和图像理解,不支持音频输入/输出、图像生成或视频处理,与Gemini和Genie 3相比差距明显。
  1. 新功能平淡
  • 写作优化(更有人味儿)、语音功能(自然但不突出)、记忆功能(仅整合Gmail和Google Calendar)以及个性化界面等新功能缺乏亮点,属"标配"水平。
  1. 发布会问题
  • PPT数据展示错误(如SWE Benchmark和Tau 2 Benchmark比例失真),引发网友嘲讽,强化OpenAI"炒作"形象。

  • 演示冗长、缺乏冲击力,相比Anthropic和Gemini的展示逊色。

行业背景与影响

  1. 数据瓶颈回应
  • OpenAI通过跨代模型生成高质量合成数据,构建递归式改进循环,但效果有限,数据瓶颈仍未完全解决。
  1. AI行业趋势
  • GPT-5的"小步前进"反映参数Scaling Law和Test-Time Compute Scaling Law放缓,低垂果实已摘尽。

  • AI行业可能进入务实竞争阶段,需新突破重回指数级增长。

  1. 竞争格局
  • 价格战对Anthropic形成威胁,但Grok 4在部分测试(如Arc Prize)领先,发布会后舆论对OpenAI评价下滑。
相关推荐
Jooolin1 小时前
【C++】C++中的 set
数据结构·c++·ai编程
Jooolin1 小时前
大名鼎鼎的红黑树,究竟是何方神圣?
数据结构·c++·ai编程
用户4099322502121 小时前
如何让FastAPI测试不再成为你的噩梦?
后端·ai编程·trae
IAM四十二1 小时前
MCP 到底解决了什么问题?
llm·ai编程·mcp
孟健14 小时前
Claude Code 太贵用不起?这个中转站让你省一半钱,还更稳定
ai编程
nil19 小时前
【开源推荐】双击即译!我用 trae 打造了一款轻量级Chrome网页翻译插件
chrome·llm·ai编程
ahauedu1 天前
30分钟入门实战速成Cursor IDE(1)
ide·ai编程·cursor
ahauedu1 天前
30分钟入门实战速成Cursor IDE(2)
ide·ai编程·cursor
用户4099322502121 天前
FastAPI测试环境配置的秘诀,你真的掌握了吗?
后端·ai编程·trae
程序员老刘2 天前
Dart MCP翻车了!3.9.0版本无法运行,这个坑你踩过吗?
flutter·ai编程·客户端