看完了 GPT5 发布会,有一些新的思考

这里有更详细的有秘塔 AI 生成的报告,我感觉比我写的好 metaso.cn/s/wbHZVsr

01|发布会速览

📌 60 秒速览

  • 40 万 token 上下文,12 万 token 输出
  • 74.9% SWE-bench Verified,仅领先 Claude 0.4 个百分点
  • 提出「统一思维模型」:AI 自主决定要不要「深度思考」
  • 原生集成 Code Interpreter + MCP + 搜索,价格却降了 15 倍
  • 编程能力核心指标(SWE-bench Verified) 74.9% 险胜 Claude4.1 74.5%

这一次升级是 OpenAI 从「知识模型」到「智能体模型」的 进化。

价格腰斩式下降,OpenAI 要把「顶尖 AI 白菜价」推向市场。


02|先说说我的结论:

看完整个发布会,总体是感觉有点遗憾的,OpenAI此次并未像 GPT3.5 和 GPT4 推进大模型领域的发展有新的方向。

大模型的创新范式开始由Anthropic引领

  • MCP标准的提出和模型支持调用
  • GPT5 的 "统一思维模型"(Unified Thinking Model)是 Anthropic在早前的Claude 3.7模型中,已经率先提出了"混合推理"(Hybrid Reasoning)或"扩展思考模式"(Extended Thinking \ Anthropic)的进一步扩展
  • Claude Code 已经成为了除了 Cursor 之外的编程的最佳的选择

现有模型的进展趋向缓慢,世界模型有可能成为下一步的重点

  • GPT5 相比 2 年前发布的 GPT4 而言,有明显的提升,但是对于用户的感知不算不明显。
  • 文本模型现在的发展在用户感知上发展已经不太大了,下一个阶段通用 Agent 规划能力内化到模型内部可能是模型发展的方向之一,用来解决复杂的规划和推理问题
  • Google Genie 3 前几天的发布的世界模型我觉得非常惊艳,完整的有物理建模和感知能力的世界大模型可能是新的方向

03|统一思维模型:从被动答题到主动规划

一句话定义

模型先判断任务复杂度,再决定要不要启动「深度思考模式」,并规划思考链路。

思想源流

  • Deepseek R1 最早提出「深度思考模式」, 并已经完成落地
  • Claude 3.7 最早提出「混合思维推理」, 并已经完成落地
  • GLM-4.5 明确「两种运行模式」
  • Kimi K2 以「长链/短链」强调代码输出,但思考过程仍黑盒

GPT-5 的跟进,等于大模型的现阶段路线基本确认:可控深度思考是下一代 AI 核心能力


04|编码能力:74.9% 的「险胜」与创新领导力转移

在关键的代码指标

  • GPT-5 得分 74.9%
  • Claude 4.1 74.5%
  • GPT-5领先0.4个百分点

这 0.4% 背后,是创新话语权从 OpenAI 向 Anthropic 的微妙位移。

MCP、双模式推理、代码智能体......过去一年 Anthropic 在范式层持续领跑。


05|趋势视角:大模型从「理解」走向「善用」

  1. 2022-2023:阶段

    惊叹于「什么大模型都知道」

  2. 2024:工具阶段

    调用一次函数、画一张图

  3. 2025+:调度阶段

    模型成为「能力路由器」

    • 理解意图
    • 拆解任务
    • 调用工具
    • 整合结果

一句话总结:AI 不再生产答案,而是生产「下一步该调用谁」的决策。


06|来讲讲为什么会强调「编程」?

闭环逻辑

  • 我们用自然语言与 AI 交互
  • AI 用编程语言数字世界交互
  • 人类大幅的使用软件工具来创造数字世界+物理世界的通用 API
    • 早期的工具软件Office,PS 等作为知识传播的载体
    • 现在的工具软件 智能家居(IOT),数字孪生,具身智能 等作为计算机连接世界的载体

下一步:是由我们去提供各类MCP去适配AI,还是由AI自己创造各种工具去完成和现实世界的连接?


07|下一站:多模态感知与物理世界交互

技术 能力 意义
Google Genie 3 图片/文本 → 可交互 2D 世界 物理规则白盒化
Flash具身多模态大模型 视觉+力控+语言 机器人即插即用

代码是数字世界的 API,多模态是物理世界的 SDK,


08|结语:关于 AI,我们都还在路上


📮 互动话题

你认为 OpenAI 和 Anthropic 谁会在接下来 1 年内引领 AI 的创新范式 ?

评论区聊聊你的判断。

相关推荐
IT_陈寒2 分钟前
React性能优化:5个90%开发者不知道的useEffect内存泄漏陷阱与实战解法
前端·人工智能·后端
可乐+冰07 小时前
Android 编写高斯模糊功能
android·人工智能·opencv
嘀咕博客8 小时前
SynClub-百度在海外推出的AI社交产品
人工智能·百度·ai工具
AI算法工程师Moxi8 小时前
什么是迁移学习(transfer learning)
人工智能·机器学习·迁移学习
空白到白9 小时前
机器学习-KNN算法
人工智能·算法·机器学习
aliedudu9 小时前
机器学习概述
人工智能·机器学习
love you joyfully9 小时前
循环神经网络——pytorch实现循环神经网络(RNN、GRU、LSTM)
人工智能·pytorch·rnn·深度学习·gru·循环神经网络
袁庭新10 小时前
AI如何辅助创业?年轻人一定要创业
人工智能·创业
GIS开发特训营10 小时前
【智慧城市】2025年中国地质大学(武汉)暑期实训优秀作品(2):智慧城市西安与一带一路
人工智能·信息可视化·智慧城市
飞哥数智坊10 小时前
扣子实战第19讲:Coze零代码打造“新生入学百事通”,辅导员都说好
人工智能·coze