**一文读懂GPT-5发布会精简版|价格屠夫、编程惊艳,新功能乏善可陈**

先说结论:GPT-5在价格、编程、低幻觉率和上下文能力上表现突出,但整体性能提升有限,多模态和新功能乏善可陈。价格战对Anthropic形成威胁、业内参数Scaling Law和Test-Time Compute Scaling Law效应放缓、OpenAI通过跨代模型生成高质量合成数据,构建递归式改进循环,但效果有限,数据瓶颈仍未完全解决。

核心亮点

  1. 价格优势
  • GPT-5 API价格极具竞争力,输入每百万token仅1.25美元,输出10美元,低于GPT-4o、Gemini 2.5 Pro及Claude Opus 4.1(后者价格高15倍)。

  • 免费用户可每天使用数小时,Plus用户享有更高额度,mini和nano版本价格也低于竞品。

  1. 编程能力提升
  • GPT-5在"智能体式编码"(Agentic Coding)上有显著进步,能处理复杂编程任务,主动沟通计划、修复bug,并优化前端开发(如生成400行飞机空气动力学展示代码)。

  • "修Bug"能力突出,能深入代码库分析结构、定位问题并自动修复,解决传统AI编程在旧代码迭代上的痛点。

  • 在Tau测试中,工具调用能力提升明显,特别是在电信领域。

  1. 低幻觉率与上下文能力
  • 幻觉率显著降低,比GPT-4o低45%,比o3低80%,在工业应用中至关重要。

  • 上下文窗口扩展至400k token,精准度翻倍,适合处理复杂长文本任务。

不足之处

  1. 性能提升有限
  • GPT-5在多项基准测试中仅略超o3和Grok 4,综合评分仅比o3高2分,比Grok 4高1分,未展现革命性突破。

  • 在Arc Prize(AGI测试)中远落后于Grok 4,前沿数学测试仅Pro模式优于ChatGPT Agent。

  1. 多模态短板
  • 仅支持文字和图像理解,不支持音频输入/输出、图像生成或视频处理,与Gemini和Genie 3相比差距明显。
  1. 新功能平淡
  • 写作优化(更有人味儿)、语音功能(自然但不突出)、记忆功能(仅整合Gmail和Google Calendar)以及个性化界面等新功能缺乏亮点,属"标配"水平。
  1. 发布会问题
  • PPT数据展示错误(如SWE Benchmark和Tau 2 Benchmark比例失真),引发网友嘲讽,强化OpenAI"炒作"形象。

  • 演示冗长、缺乏冲击力,相比Anthropic和Gemini的展示逊色。

行业背景与影响

  1. 数据瓶颈回应
  • OpenAI通过跨代模型生成高质量合成数据,构建递归式改进循环,但效果有限,数据瓶颈仍未完全解决。
  1. AI行业趋势
  • GPT-5的"小步前进"反映参数Scaling Law和Test-Time Compute Scaling Law放缓,低垂果实已摘尽。

  • AI行业可能进入务实竞争阶段,需新突破重回指数级增长。

  1. 竞争格局
  • 价格战对Anthropic形成威胁,但Grok 4在部分测试(如Arc Prize)领先,发布会后舆论对OpenAI评价下滑。
相关推荐
阿部多瑞 ABU17 小时前
Unicode全字符集加解密工具 - 命令行交互版:功能完整的终端解决方案
经验分享·交互·ai编程·1024程序员节
大熊猫侯佩17 小时前
黑衣人档案:用 Apple Foundation Models + SwiftUI 打造 AI 聊天机器人全攻略
ios·swiftui·ai编程
赵得C17 小时前
智能体的范式革命:华为全栈技术链驱动下一代AI Agent
人工智能·华为·ai·ai编程
用户40993225021220 小时前
为什么Vue 3的计算属性能解决模板臃肿、性能优化和双向同步三大痛点?
前端·ai编程·trae
六月的可乐2 天前
实战干货-Vue实现AI聊天助手全流程解析
前端·vue.js·ai编程
用户4099322502122 天前
Vue响应式声明的API差异、底层原理与常见陷阱你都搞懂了吗
前端·ai编程·trae
Mintopia2 天前
🚀 共绩算力:让 AI 创造力驶上“光速通道”
云计算·aigc·ai编程
朝凡FR2 天前
AIShareTxt入门:快速准确高效的为金融决策智能体提供股票技术指标上下文
python·ai编程
逻极2 天前
Spec-Kit 实战指南:从零到一构建“照片拖拽相册”Web App
人工智能·ai·agent·ai编程·web app
yaocheng的ai分身2 天前
【转载】未来每个开发者一年得花10万刀
ai编程