先说结论:GPT-5在价格、编程、低幻觉率和上下文能力上表现突出,但整体性能提升有限,多模态和新功能乏善可陈。价格战对Anthropic形成威胁、业内参数Scaling Law和Test-Time Compute Scaling Law效应放缓、OpenAI通过跨代模型生成高质量合成数据,构建递归式改进循环,但效果有限,数据瓶颈仍未完全解决。

核心亮点
- 价格优势:
-
GPT-5 API价格极具竞争力,输入每百万token仅1.25美元,输出10美元,低于GPT-4o、Gemini 2.5 Pro及Claude Opus 4.1(后者价格高15倍)。
-
免费用户可每天使用数小时,Plus用户享有更高额度,mini和nano版本价格也低于竞品。
- 编程能力提升:
-
GPT-5在"智能体式编码"(Agentic Coding)上有显著进步,能处理复杂编程任务,主动沟通计划、修复bug,并优化前端开发(如生成400行飞机空气动力学展示代码)。
-
"修Bug"能力突出,能深入代码库分析结构、定位问题并自动修复,解决传统AI编程在旧代码迭代上的痛点。
-
在Tau测试中,工具调用能力提升明显,特别是在电信领域。
- 低幻觉率与上下文能力:
-
幻觉率显著降低,比GPT-4o低45%,比o3低80%,在工业应用中至关重要。
-
上下文窗口扩展至400k token,精准度翻倍,适合处理复杂长文本任务。
不足之处
- 性能提升有限:
-
GPT-5在多项基准测试中仅略超o3和Grok 4,综合评分仅比o3高2分,比Grok 4高1分,未展现革命性突破。
-
在Arc Prize(AGI测试)中远落后于Grok 4,前沿数学测试仅Pro模式优于ChatGPT Agent。
- 多模态短板:
- 仅支持文字和图像理解,不支持音频输入/输出、图像生成或视频处理,与Gemini和Genie 3相比差距明显。
- 新功能平淡:
- 写作优化(更有人味儿)、语音功能(自然但不突出)、记忆功能(仅整合Gmail和Google Calendar)以及个性化界面等新功能缺乏亮点,属"标配"水平。
- 发布会问题:
-
PPT数据展示错误(如SWE Benchmark和Tau 2 Benchmark比例失真),引发网友嘲讽,强化OpenAI"炒作"形象。
-
演示冗长、缺乏冲击力,相比Anthropic和Gemini的展示逊色。
行业背景与影响
- 数据瓶颈回应:
- OpenAI通过跨代模型生成高质量合成数据,构建递归式改进循环,但效果有限,数据瓶颈仍未完全解决。
- AI行业趋势:
-
GPT-5的"小步前进"反映参数Scaling Law和Test-Time Compute Scaling Law放缓,低垂果实已摘尽。
-
AI行业可能进入务实竞争阶段,需新突破重回指数级增长。
- 竞争格局:
- 价格战对Anthropic形成威胁,但Grok 4在部分测试(如Arc Prize)领先,发布会后舆论对OpenAI评价下滑。