这里有更详细的有秘塔 AI 生成的报告,我感觉比我写的好 metaso.cn/s/wbHZVsr
01|发布会速览
📌 60 秒速览
- 40 万 token 上下文,12 万 token 输出
- 74.9% SWE-bench Verified,仅领先 Claude 0.4 个百分点
- 提出「统一思维模型」:AI 自主决定要不要「深度思考」
- 原生集成 Code Interpreter + MCP + 搜索,价格却降了 15 倍
- 编程能力核心指标(SWE-bench Verified) 74.9% 险胜 Claude4.1 74.5%
这一次升级是 OpenAI 从「知识模型」到「智能体模型」的 进化。
价格腰斩式下降,OpenAI 要把「顶尖 AI 白菜价」推向市场。
02|先说说我的结论:
看完整个发布会,总体是感觉有点遗憾的,OpenAI此次并未像 GPT3.5 和 GPT4 推进大模型领域的发展有新的方向。
大模型的创新范式开始由Anthropic引领
- MCP标准的提出和模型支持调用
- GPT5 的 "统一思维模型"(Unified Thinking Model)是 Anthropic在早前的Claude 3.7模型中,已经率先提出了"混合推理"(Hybrid Reasoning)或"扩展思考模式"(Extended Thinking \ Anthropic)的进一步扩展
Claude Code
已经成为了除了Cursor
之外的编程的最佳的选择
现有模型的进展趋向缓慢,世界模型有可能成为下一步的重点
- GPT5 相比 2 年前发布的 GPT4 而言,有明显的提升,但是对于用户的感知不算不明显。
- 文本模型现在的发展在用户感知上发展已经不太大了,下一个阶段通用 Agent 规划能力内化到模型内部可能是模型发展的方向之一,用来解决复杂的规划和推理问题
- Google Genie 3 前几天的发布的世界模型我觉得非常惊艳,完整的有物理建模和感知能力的世界大模型可能是新的方向
03|统一思维模型:从被动答题到主动规划
一句话定义
模型先判断任务复杂度,再决定要不要启动「深度思考模式」,并规划思考链路。
思想源流
- Deepseek R1 最早提出「深度思考模式」, 并已经完成落地
- Claude 3.7 最早提出「混合思维推理」, 并已经完成落地
- GLM-4.5 明确「两种运行模式」
- Kimi K2 以「长链/短链」强调代码输出,但思考过程仍黑盒
GPT-5 的跟进,等于大模型的现阶段路线基本确认:可控深度思考是下一代 AI 核心能力。
04|编码能力:74.9% 的「险胜」与创新领导力转移
在关键的代码指标
- GPT-5 得分 74.9%
- Claude 4.1 74.5%
- GPT-5领先0.4个百分点
这 0.4% 背后,是创新话语权从 OpenAI 向 Anthropic 的微妙位移。
MCP、双模式推理、代码智能体......过去一年 Anthropic 在范式层持续领跑。
05|趋势视角:大模型从「理解」走向「善用」
-
2022-2023:阶段
惊叹于「什么大模型都知道」
-
2024:工具阶段
调用一次函数、画一张图
-
2025+:调度阶段
模型成为「能力路由器」
- 理解意图
- 拆解任务
- 调用工具
- 整合结果
一句话总结:AI 不再生产答案,而是生产「下一步该调用谁」的决策。
06|来讲讲为什么会强调「编程」?
闭环逻辑
- 我们用自然语言与 AI 交互
- AI 用编程语言数字世界交互
- 人类大幅的使用软件工具来创造数字世界+物理世界的通用 API
- 早期的工具软件Office,PS 等作为知识传播的载体
- 现在的工具软件 智能家居(IOT),数字孪生,具身智能 等作为计算机连接世界的载体
下一步:是由我们去提供各类MCP去适配AI,还是由AI自己创造各种工具去完成和现实世界的连接?
07|下一站:多模态感知与物理世界交互
技术 | 能力 | 意义 |
---|---|---|
Google Genie 3 | 图片/文本 → 可交互 2D 世界 | 物理规则白盒化 |
Flash具身多模态大模型 | 视觉+力控+语言 | 机器人即插即用 |
代码是数字世界的 API,多模态是物理世界的 SDK,
08|结语:关于 AI,我们都还在路上
📮 互动话题
你认为 OpenAI 和 Anthropic 谁会在接下来 1 年内引领 AI 的创新范式 ?
评论区聊聊你的判断。