**一文读懂GPT-5发布会精简版|价格屠夫、编程惊艳,新功能乏善可陈**

先说结论:GPT-5在价格、编程、低幻觉率和上下文能力上表现突出,但整体性能提升有限,多模态和新功能乏善可陈。价格战对Anthropic形成威胁、业内参数Scaling Law和Test-Time Compute Scaling Law效应放缓、OpenAI通过跨代模型生成高质量合成数据,构建递归式改进循环,但效果有限,数据瓶颈仍未完全解决。

核心亮点

  1. 价格优势
  • GPT-5 API价格极具竞争力,输入每百万token仅1.25美元,输出10美元,低于GPT-4o、Gemini 2.5 Pro及Claude Opus 4.1(后者价格高15倍)。

  • 免费用户可每天使用数小时,Plus用户享有更高额度,mini和nano版本价格也低于竞品。

  1. 编程能力提升
  • GPT-5在"智能体式编码"(Agentic Coding)上有显著进步,能处理复杂编程任务,主动沟通计划、修复bug,并优化前端开发(如生成400行飞机空气动力学展示代码)。

  • "修Bug"能力突出,能深入代码库分析结构、定位问题并自动修复,解决传统AI编程在旧代码迭代上的痛点。

  • 在Tau测试中,工具调用能力提升明显,特别是在电信领域。

  1. 低幻觉率与上下文能力
  • 幻觉率显著降低,比GPT-4o低45%,比o3低80%,在工业应用中至关重要。

  • 上下文窗口扩展至400k token,精准度翻倍,适合处理复杂长文本任务。

不足之处

  1. 性能提升有限
  • GPT-5在多项基准测试中仅略超o3和Grok 4,综合评分仅比o3高2分,比Grok 4高1分,未展现革命性突破。

  • 在Arc Prize(AGI测试)中远落后于Grok 4,前沿数学测试仅Pro模式优于ChatGPT Agent。

  1. 多模态短板
  • 仅支持文字和图像理解,不支持音频输入/输出、图像生成或视频处理,与Gemini和Genie 3相比差距明显。
  1. 新功能平淡
  • 写作优化(更有人味儿)、语音功能(自然但不突出)、记忆功能(仅整合Gmail和Google Calendar)以及个性化界面等新功能缺乏亮点,属"标配"水平。
  1. 发布会问题
  • PPT数据展示错误(如SWE Benchmark和Tau 2 Benchmark比例失真),引发网友嘲讽,强化OpenAI"炒作"形象。

  • 演示冗长、缺乏冲击力,相比Anthropic和Gemini的展示逊色。

行业背景与影响

  1. 数据瓶颈回应
  • OpenAI通过跨代模型生成高质量合成数据,构建递归式改进循环,但效果有限,数据瓶颈仍未完全解决。
  1. AI行业趋势
  • GPT-5的"小步前进"反映参数Scaling Law和Test-Time Compute Scaling Law放缓,低垂果实已摘尽。

  • AI行业可能进入务实竞争阶段,需新突破重回指数级增长。

  1. 竞争格局
  • 价格战对Anthropic形成威胁,但Grok 4在部分测试(如Arc Prize)领先,发布会后舆论对OpenAI评价下滑。
相关推荐
jzy371116 分钟前
京东开源王炸!JoyAgent-JDGenie 通用智能体一键部署指南,DeepSeek 大模型完美适配
后端·openai·ai编程
POLOAPI1 小时前
Claude Opus:从智能升级到场景落地的旗舰模型进阶之路
人工智能·ai编程·claude
薯条大爹1 小时前
告别Cursor!最强AI编程辅助Claude Code安装到使用全流程讲解
aigc·ai编程·ai写作
量子位3 小时前
GPT-5来了!人人都能免费用,最强大模型只需最傻瓜式使用
gpt·ai编程
量子位3 小时前
特斯拉Dojo超算团队突然解散!20人骨干被老领导打包带走
ai编程
POLOAPI5 小时前
藏在 Anthropic API 里的秘密武器:Claude Code 让你的密钥价值翻倍
人工智能·api·ai编程
zifengb6 小时前
Cursor AI 模型选择不完全指南
ai编程·cursor
袋鼠云数栈UED团队7 小时前
扣子 Coze 产品体验功能
aigc·ai编程·coze
葫芦和十三7 小时前
Trae SOLO: 一句话复刻红白机的快乐!
ai编程·trae·solo